AI Traning Parallism
数据并行 DP
(Data Parallelism)
- 思想:把同一个模型放在多个GPU上,batch数据平均分布到各个GPU上,并行计算。
- 难点:注意参数同步和信息过期问题。
- 优点:
- 加速比线性。
- 部署简单工作量小,每个节点内的计算效率高。
- 由于部署简单,是最先采用的并行方式。
- 缺点:
- 需要在每个节点复制所有模型参数,显存重复度高,利用率低,并不适合大模型的部署。只适用于训练样本较多而模型较小的情况。
- 数据分布在不同机器,需要allreduce同步权重 FS(fully shared)DP

模型并行
Model Parallelism
- 思想: 通过将模型切分成不同的部分分别在多个设备上进行计算,从而使得其可以部署更大的模型。
- 难点:
- 需要人为的切分设计。
- 也有必要的数据传输。
- 切分的部分能有线性加速比,
- 优点:
- 适用于模型较大无法单独放入一个设备内存的情况,通过将模型切分到多个设备上进行计算,从而使得其可以部署更大的模型。
张量并行 TP
- 思想:通过在多个计算设备上分片模型参数来实现并行。
- 举例:一个操作中进行并行计算,主要是矩阵-矩阵乘法。张量并行训练是将一个张量沿特定维度分成 N 块,每个设备只持有整个张量的 1/N,同时不影响计算图的正确性。这需要额外的通信来确保结果的正确性。
- 底层逻辑是矩阵乘法的拆分计算, 矩阵乘法中列并行与行并行这两种张量并行的方式,以及它们在前向传播和反向传播中的区别。^14
- 难点:额外的通信
- 优点:每个设备只持有整个张量的 1/N
序列并行 SP
- 序列并行可以看作是先前介绍过的数据并行在Transformer大语言模型下的延伸和扩展,它是更加细粒度的数据并行。^15
- 大家知道,Transformer语言类模型所处理的数据对象是序列(Sequence),一个batch中包含多个序列,一个序列中包含多个token,每个token由一个向量表示。
- 序列并行(Sequence Parallelism, SP)即为将一个序列切开,分片段到多个节点上并行处理的策略,其主要目的是可以摆脱单卡存储限制,训练超长上下文的大模型。
根据现有文献描述,序列并行可以被部署在Transformer模型的两个的阶段中:
- 一个是Attention阶段,
- 最初来自Colossal-AI,[^5]
- Megatron-LM后来也提出了相似概念,将之称为上下文并行(Context Parallelism, CP)^16,下文我们将之统称为Attention阶段的序列并行;
- 除此之外,还有DeepSpeed提出的混合序列并行Ulysess[^10],也在Attention阶段部分使用到了序列并行
- 另一个是LayerNorm与Dropout阶段,来自Megatron-LM[^8]
虽然都是序列并行,但由于处于不同的运算阶段,它们的行为以及影响是不同的。前者的目的主要是减少数据存储压力,打破模型输入序列长度(sequence length)的限制;而后者则是为了与LayerNorm与Dropout前后相邻阶段的张量并行(TP)搭配使用,减少存储压力。
- 关键:SP能够有效地分配和管理大规模输入序列的计算任务,从而使得模型能够处理更长的序列而不会受到单个设备内存限制的束缚。
TP vs SP
Attention阶段的序列并行与TP的对比:Attention阶段除了SP(属于数据并行),还有一种通用的并行方式是TP(属于模型并行)^15。
- TP将Attention阶段的计算按照Multi-Head中Head的维度分开,涉及到的通信主要是正向一次的各Head输出矩阵的AllReduce和反向一次的输入矩阵梯度的AllReduce;
- 而SP是按照输入数据的序列长度的维度分的,涉及到的通信主要是正向一次的矩阵的AllGather与反向一次的矩阵梯度的ReduceScatter。
- 值得提及,SP在Multi-Head与Single-Head情况下的通信行为一致,由于Head没有被分开,不涉及跨Head的通信行为。
上下文并行 CP
通过从序列维度划分三份,并Ring来交换KV,实现计算和通讯的覆盖:

CP vs SP
Megatron-LM提出的CP与Colossal-AI提出的SP的差别:CP在SP之后被提出,其主体思想与Colossal-AI的SP一致,都是Attention阶段的序列并行^15。
其主要优化点在于:
- CP进一步利用了Flash Attention的方法对注意力矩阵进行了分块计算。
- 结合上述Ring Attention的计算通信流水部署方案,CP一次传输一组KV矩阵,得到一个分块的输出矩阵O,最后再整合,降低存储与通信开销。
流水线并行 PP
- 思想:AI训练是重复的有依赖长过程,可以打散成有依赖的基本单元micro-batch进行流水线调度, 提高设备的利用率。
- 难点:依赖基本单元间的数据传输时间,如何隐藏。流水线并行的方式更复杂,并且micro-batch的方式减少了单节点计算密集度,增加了节点间的信息传递频率,使得取得一个好的加速比成为一个难题。
- 优点:解决了数据并行显存利用率低的问题,其通过对模型的切分,每个节点只需要放置一部分的模型参数,从而使得其可以部署更大的模型。
GPipe
1F1B
PipeDream
VPP
- 假定当前模型网络共16层(编号 0-15),4个Device,
- 前述GPipe模式和PipeDream是分成4个stage, 按编号0-3层放Device1,4-7层放Device2,并以此类推。
- virtual pipeline则是按照文中提出virtual_pipeline_stage概念减小切分粒度,
- 以virtaul_pipeline_stage=2为例,将0-1层放Device1,2-3层放在Device2,…,6-7层放到Device4,8-9层继续放在Device1,10-11层放在Device2,…,14-15层放在Device4。

DualPipe
DualPipe 是一种创新的双向管道并行算法,在 DeepSeek-V3 技术报告中提出。实现了正向和反向计算-通信阶段的完全重叠,同时也减少了管道气泡时间。

混合并行
- 2021年10月,微软和英伟达联合提出了 PTD-P(Inter-node Pipeline Parallelism, Intra-node Tensor Parallelism, and Data Parallelism)训练加速方法,
- 通过数据并行、张量并行和 Pipeline 并行“三管齐下”的方式,将模型的吞吐量提高 10%以上。
- 该并行方法可以在3072个GPU 上,以502P的算力对一万亿参数的GPT 架构模型进行训练,实现单GPU吞吐量52%的性能提升。
专家并行 MoE(EP)
ZeRO
- ZeRO通过在多个设备上分片优化器状态、梯度和参数来减少每个设备的存储需求。
- Zero 优化方法有三个层次,分别是 ZeRO-1、ZeRO-2 和 ZeRO-3。[^13]
- 它们是由微软提出的 ZeRO(Zero Redundancy Optimizer) 优化技术的不同阶段,旨在减少大规模分布式训练中的内存占用。
1. ZeRO-1:优化器状态分区
- 目标:减少优化器状态的内存占用。
- 实现方式:将优化器状态(如动量、梯度方差等)分布在不同的 GPU 上,而不是在每个 GPU 上保存完整的副本。
- 优点:显著减少内存占用,同时通信开销较小。
- 适用场景:适合中等规模的模型训练。
2. ZeRO-2:梯度分区
- 目标:进一步减少梯度存储的内存占用。
- 实现方式:将梯度分区存储在不同的 GPU 上,每个 GPU 只保存一部分梯度。
- 优点:内存占用进一步降低,但通信开销有所增加,因为需要在反向传播后聚合梯度。
- 适用场景:适合大规模模型训练。
3. ZeRO-3:参数分区
- 目标:最大化内存节省,支持超大规模模型训练。
- 实现方式:将模型参数分区存储在不同的 GPU 上,每个 GPU 只保存一部分参数。
- 优点:内存占用大幅降低,可以训练非常大的模型,但通信开销最大,因为需要在每次前向和反向传播时聚合参数。
- 适用场景:适合超大规模模型训练(如 GPT、BERT 等)。
对比总结
| 特性 | ZeRO-1 | ZeRO-2 | ZeRO-3 |
|---|---|---|---|
| 分区对象 | 优化器状态 | 梯度 | 模型参数 |
| 内存节省 | 中等 | 较大 | 最大 |
| 通信开销 | 最小 | 中等 | 最大 |
| 适用场景 | 中等规模模型 | 大规模模型 | 超大规模模型 |
分层ZeRo
- 分层Zero(Hierarchical Zero)是一种用于大规模AI模型训练的优化方法,旨在解决传统Zero(Zero Redundancy Optimizer)在大规模分布式训练中的局限性。
- 它通过分层通信和计算优化,提升训练效率和扩展性。
核心思想是将计算和通信任务分层处理,减少通信开销,提高资源利用率。具体包括:
- 分层通信:将通信任务分为多个层次,优先在低层次(如节点内)完成,减少高层次(如跨节点)的通信。
- 分层计算:将计算任务分层处理,优先在低层次完成,减少高层次的计算负担。
主要特点
- 减少通信开销:通过分层通信,降低跨节点通信频率,提升效率。
- 提高资源利用率:分层计算使资源分配更合理,减少闲置。
- 增强扩展性:优化后的方法更适合大规模分布式训练,支持更多计算节点。
异构系统的并行
人们思考为什么 CPU 内存没有被用于分布式训练。
参考文献
[^1]: MindSpore (master) 分布式并行原生
[^2]: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism
[^3]: GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism
[^4]: PipeDream: Generalized Pipeline Parallelism for DNN Training
[^5]: Sequence Parallelism: Long Sequence Training from System Perspective
[^6]: DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training
[^7]: Paradigms of Parallelism
[^8]: Reducing Activation Recomputation in Large Transformer Models
[^9]: Ring Attention with Blockwise Transformers for Near-Infinite Context
[^11]: Efficient large-scale language model training on gpu clusters using megatron-lm
[^13]: ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

[^1]









[^17]


